Programando Processadores Massivamente Paralelos: Uma Abordagem Prática: O Modelo de Execução do CUDA: Host versus Dispositivo

O modelo de execução do CUDA transforma seu computador em um sistema heterogêneo de alto desempenho. Imagine um Grande Diretor (o Host/CPUs) e um Exército de Milhares (o Dispositivo/GPU). O Diretor lida com lógica complexa e tomada de decisões, enquanto o Exército realiza tarefas massivas e repetitivas simultaneamente.

1. A Divisão Arquitetônica

O Host é uma CPU otimizada para latência, projetada para fluxos de controle complexos e tarefas sequenciais. Por outro lado, o Dispositivo é um GPU otimizado para throughput, contendo milhares de núcleos simples projetados para executar a mesma instrução sobre grandes conjuntos de dados simultaneamente.

2. O Ritmo da Execução

Um programa CUDA funciona como uma série de fases. A execução começa no Host para o "código serial." Quando o programa atinge um "Kernel Paralelo," ele inicia um Grade de threads no Dispositivo. O controle retorna ao Host assim que o Dispositivo conclui sua carga de trabalho massiva.

3. Especialização de Desempenho

O modelo aproveita as forças de ambos: a CPU gerencia recursos do sistema e ramificações complexas, enquanto o GPU executa SPMD (Programa Único, Múltiplos Dados) lógica para processar elementos de dados em paralelo.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

Which architecture is characterized as being 'throughput-optimized'?

The Host (Intel® CPU)

The Device (NVIDIA® GPU)

The System RAM

The PCIe Bus

QUESTION 2

The reader should complete Part 1 of the MatrixMultiplication() example in Figure 3.6 with similar declarations of an Nd and a Pd pointer variable as well as their corresponding cudaMalloc() calls. Furthermore, Part 3 in Figure 3.6 can be completed with mandatory calls.

float *Nd, *Pd; cudaMalloc((void**)&Nd, size); ... cudaFree(Nd);

float Nd, Pd; malloc(&Nd, size); ... free(Nd);

float *Nd, *Pd; cudaMemcpy(Nd, Pd, size); ... delete Nd;

int Nd, Pd; Nd = new float[size]; ... free(Nd);

QUESTION 3

In the CUDA execution model, where does a program always begin its execution?

On the Device (GPU)

Simultaneously on both

On the Host (CPU)

In the Global Memory

QUESTION 4

What happens when the Host encounters a phase with rich data parallelism?

It speeds up its clock frequency.

It launches a Kernel onto the Device.

It stores the data in the Host Cache.

It converts the code to Python.

QUESTION 5

A student attempts to launch a 1024x1024 matrix multiplication on G80 hardware using 1024 blocks, where each thread calculates one element. Why will this fail?

The G80 cannot handle 1024 blocks.

The total number of threads exceeds 1 million.

The configuration results in 1024 threads per block, exceeding the 512 hardware limit.

Matrix multiplication is not data parallel.